در این اثر علمی تقریباً همۀ حوزههای مطرح و در دست پژوهش رایج راجع به تجریۀ دادههای حاصل از توالییابی نسل جدید درباره مطالعۀ ژنوم و ترنسکریپتوم پوشش داده شود و برای درک بهتر علاوه بر تأکید روی مبانی آنها به ذکر شیوۀ اجرای درست و دقیق پروژهها با ذکر دستورات کاربردی سلسلهوار و استفاده از منابع تصویری متعدد برای قابل فهمتر کردن موضوع یا تجزیۀ در دست بحث استفاده شود. بهطور کلی در این اثر علمی بیش از 1120 دستور کاربردی مهم (شامل بیش از 850 دستور قابل اجراء در محیط پایتون و Perl و 270 دستور در محیط R) به همراه توضیح دقیقی راجعبه چرایی استفاده از آنها و گزینههای لازم و مناسب برای تجزیههای منظور، 383 تصویر با کیفیّت مناسب برای درک بهتر مطالب و تجزیهها و 86 جدول مفید در راستای کمک به مقایسههای مختلف یا توضیح نتایج تجزیهها آمده است. با این اوصاف کتاب پیش رو بدون اقراق تنها کتاب جامع درباره تجزیهوتحلیل دادههای NGS به زبان فارسی است که با زبانی ساده، روان و پروژهمحورانه نگاشته شده است. محتوی و روشهای بیانشده در فصلهای مختلف آن مناسب پژوهشگران عرصههای مختلف زیستی مانند زیستشناسی، کشاورزی و پزشکی است و نیز میتواند بهعنوان منبع درسی برای دورههای کارشناسی ارشد و دکتری در رشتههای مختلف؛ زیستشناسی مولکولی، بیوتکنولوژی کشاورزی و پزشکی، ژنتیک گیاهی و دامی و میکروبیولوژی صنعتی، کشاورزی و پزشکی استفاده شود.
پیشگفتار مؤلف 35
فصل اول: روشهای مختلف توالی یابی نسل دوم و کاربردهای آنها 41
مقدمه 41
تعیین توالی به وسیلۀ واکنش زنجیرهای پلیمراز 42
فنّاوریهای توالی یابی Ilumina 48
فراخوانی بازها در روش توالی یابی Illumina 53
فنّاوری توالی یابی نانوحلقۀ DNA 54
مراحل اجرا 56
آماده سازی نمونه 56
ساخت DNB 56
بارگذاری DNB 57
فنّاوری cPAS 58
معرف توالی یابی CoolmpStm 58
آماده سازی رشتۀ دوم 59
فنّاوری توالی یابی جریان یونی (Ion Torrent) 59
آمادهسازی نمونه و توالی یابی در سکوی جریان یونی 60
تراشههای نیمه هادی و توالی یابی غیر اپتیکی 61
فراخوانی بازها 63
بررسی و تحلیل ترنسکریپتوم 63
توالییابی و سرهم کردن ترنسکریپتوم 64
توالی یابی RNA 64
روشهای مختلف توالی یابی RNA 65
توالی یابی RNA کل 65
توالییابی RNA هدف 65
توالییابی RNA تکسلول (scRNA-seq) 66
توالی یابی Small RNA 67
توالی یابی مختص رشته 68
نمایه ریبوزوم (Ribo-Seq) 70
توالی یابی mRNA (mRNA-seq) 73
فصل دوم: مبانی کنترل کیفیّت و کیفی سنجی نتایج توالی یابی 75
مقدمه 75
قالب FASTQ و مبانی کنترل کیفیّت بازها و خوانشها 75
اجرای برنامۀ fastp در محیط پایتون 79
اجرای برنامۀ Rfastp در محیط R 82
فصل سوم: الگوریتمهای سرهم کردن خوانشها 85
مقدمه 85
الگوریتمهای سرهمکردن: OLC و DBG 85
تعریف عمومی از گراف دیبروین 87
ضرورت استفاده از گراف دیبروین برای سرهمکردن خوانشهای ژنوم 88
ماهیت دورشتهای ژنوم 91
تأثیر موتاسیون در اندازۀ K-mer 91
گراف دیبروین برای نواحی تکراری 93
چند نکته مهم درباره گراف de Bruijn 94
روش سرهمکردن ژنوم با استفاده از گراف دیبروین 95
سرهم کردن ژنوم از طریق خوانشهای کامل و صحیح 95
گراف دیبروین و روش توالی یابی سنگر 97
تفاوت در اندازۀ K-mer برای جبران کمبودها 98
چرا کانتیگهای سرهم شده کوتاهتر از طول خوانشها هستند؟ 100
حافظه (RAM) لازم و توزیع K-mer در یک کتابخانه 100
سرهم کردن ژنوم با خوانشهای نادرست. تأثیرات و اقدامات 101
چرا نرمافزارهای مبتنی بر گراف دیبروین به میزان بالایی حافظه احتیاج دارند؟ 101
تأثیر خطاهای توالییابی در ساختار گراف دیبروین 105
انشعابات، حبابها و اتصالات کاذب 106
شاخهها و حبابها: خطا در توالییابی یا پلیمورفیسم؟! 109
تأثیر توالییابیهای ناهمشکل 109
ترسیم گراف دیبروین از یک توالی کوتاه 110
گراف دیبروین برای دادههای ترنسکریپتوم یا کتابخانۀ RNA-Seq 111
گراف دیبروین برای ژنهایی با پیرایش متناوب 113
گراف دیبروین برای ژنومهایی با میزان پلیمورفیسم بالا 114
گراف دیبروین برای خوانشهایی با طول بلند 115
گراف دیبروین برای مطالعات متاژنومیکس 116
فصل چهارم: توصیف قالبهای پرکاربرد دادهها و ساخت آنها 119
مقدمه 119
قالب GFF 119
ایجاد فایل GFF3 120
اجرای برنامۀ Gmap 120
مراحل اجرای برنامۀ Gmap 122
اجرای برنامۀ spaln 123
فیلتر و مرتّب کردن نتایج همردیفی بین ژنها و ژنوم 125
همردیفی محلّی و نیمهکلی 126
بهره برداری از فایل GFF3 با استفاده از برنامۀ BEDTools 126
استخراج ویژگیهای ژنومی با استفاده از ابزار GAD 127
قالب BED 131
قالب BedGraph 132
مراحل ساخت فایل Bedgraph 133
اجرای برنامۀ SAMtools 137
حذف خوانشهای همردیف شده در چند مکان ژنوم 138
نشانگذاری و حذف خوانشهای که در دو مکان همردیف شده اند 139
قالب BAM 139
قالب VCF 140
قالب Sequence Read Archive (SRA) 143
دانلود داده از پایگاه SRA 144
قالب FASTQ 146
دستکاری و استخراج اطلاعات از فایلهای fa و fq با استفاده از برنامۀ SeqKit 147
ارائه شاخصهای آماری یک فایل fa (stats) 148
تبدیل فایل fq به fa (fq2fa) 148
تبدیل FASTA/Q در قالب جدول و ارائه اطلاعات لازم (fx2tab) 148
حذف توالیهای تکراری دارای ID/name/sequence یکسان (rmdup) 149
شناسایی توالیهای مشترک بین چند فایل (common) 150
تقسیم یک فایل بزرگ به فایلهای کوچکتر (split2) 151
تبدیل یک فایل دارای چندتوالی در قالب FASTA به فایلهای مجزا 153
مرتّبسازی توالیهای یک فایل براساس شاخصههای مختلف (sort) 153
فصل پنجم: همردیفی، مبانی و ابزارها 155
مقدمه 155
اهداف عملکردی و تکاملی همردیفی ژنها 156
درج 156
حذف 157
جانشینی 157
واژگان استفادهشده در همردیفی 157
انواع همردیفی 157
از نظر همردیفی 158
الف- همردیفی کلی 158
ب) همردیفی موضعی 158
از نظر تعداد توالی همردیفیشده 159
الف- همردیفی جفتی 159
ب- همردیفی چندگانه 159
همردیفی مبتنی بر ماتریس امتیازدهی 159
اصول امتیازدهی در همردیفی جفتی توالیها 159
مدلهای و ابزارهای استفادهشده در همردیفی پروتئینها 163
الف- حفظ شدن 164
ب- فراوانی 164
ج- تکامل 164
شناسایی طول کامل کانتیگها با استفاده از دادههای ترنسکریپتوم یک یا چند پروژه 172
اجرای برنامۀ BLAST 173
شناسایی عملکرد کانتیگها 177
اجرای پروژۀ شناسایی توالیهای تقاضای منحصر به یک گونه 177
فصل ششم: راهبردهای سرهمکردن ترنسکریپتوم و ابزارهای آنها 181
مقدمه 181
راهبرد برپایه ژنوم مرجع (رفرنس) 181
راهبرد سرهمکردن de novo 184
مرور اجمالی سرهمکردن ترنسکریپتوم براساس ژنوم مرجع 184
دستآوردها و مزایای روش de novo 184
سرهم کردن de novo در عمل 185
معایب و مشکلات سرهم کردن de novo 186
سرهم کردن ترنسکریپتوم به صورت ترکیبی با ژنوم مرجع 188
برنامۀ Trinity 192
خروجی Trinity 198
سرهم کردن de novo با استفاده از برنامۀ Trinity 199
سرهمکردن خوانشهای دوطرفه 199
سرهم کردن خوانشهای یکطرفه 200
سرهمکردن خوانشهای هیبرید 200
سرهمکردن خوانشهای همردیفشده روی ژنوم 202
سرهمکردن خوانشهای حاصل از روش توالییابی ویژه رشته 202
مثال نتایج سرهمکردن توالییابی ترنسکریپتوم گیاه گلپر با نرمافزار Trinity 203
شناسایی نواحی رمزکننده در توالیهای سرهم شده 207
شناسایی بلندترین ORF 207
شناسایی ORFها براساس فایل GTF ژنوم 208
فایلهای نتایج 209
سرهم کردن با استفاده از ژنوم مرجع 210
نمایه سازی؛ الگوریتمهای همردیفی توالیها در NGS 210
همردیفی توالیها با استفاده از جدول hash 210
همردیفی توالیها با استفاده از روش درخت پسوند 214
جستجوی توالی در ژنوم مرجع با استفاده از الگوریتم BWT 216
ابزارهای سرهمکردن با استفاده از ژنوم مرجع (رفرنس) 217
اجرای برنامۀ STAR 217
خوشه بندی، دوخت و امتیازدهی 219
ساخت فایل ایندکس ژنوم مرجع 220
اجرای همردیفی خوانشها با ژنوم مرجع 222
اجرای برنامۀ HISAT2 224
ساخت فایل ایندکس ژنوم 224
همردیفی خوانشها روی ژنوم 225
اجرای برنامۀ subread در دو محیط پایتون و R 226
شناسایی اتصالات اگزون-اگزون 229
اجرای برنامۀ subread در محیط R 229
همردیفی توالی خوانشهای کنترل کیفیّت شده روی ژنوم 230
اجرای برنامۀ subread در محیط پایتون 231
همردیفی خوانشهای DNA روی ژنوم در محیط R 231
شناسایی SNPها با استفاده از برنامۀ exactSNPاز بستۀ subread در محیط R 232
شناسایی SNPها در محیط پایتون 232
اجرای همردیفی ژنوم با استفاده از برنامۀ subjunc در محیط R 232
اجرای همردیفی ژنوم با استفاده از برنامۀ subjunc در محیط پایتون 233
همردیفی خوانشهای بلند روی ژنوم با استفاده از برنامی sublong در محیط R 233
همردیفی خوانشهای بلند روی ژنوم با استفاده از برنامۀ sublong در محیط پایتون 234
همردیفی microRNAs روی ژنوم 234
فصل هفتم: بررسی بیان افتراقی ژنها 237
مقدمه 237
کمّیسنجی نتایج همردیفی خوانشها روی ژنوم مرجع 238
اجرای برنامۀ cufflinks 238
اجرای برنامۀ StringTie2 239
کمّیسنجی با استفاده از ماژول featureCounts بستۀ subread در محیط R 240
کمّیسنجی مکان-ژنومی با استفاده از فایلGTF 240
کمّیسنجی در محیط پایتون 240
کمّیسنجی نتایج همردیفی خوانشها روی توالیهای مرجع ترنسکریپتوم 243
اجرای برنامۀ BOWTIE2 243
ساخت فایل ایندکس مرجع ترنسکریپتوم 244
همردیفی خوانشها 244
اجرای برنامه های bowtie و bowtie2 در محیط R 246
اجرای برنامۀ bowtie2 247
اجرای برنامۀ bowtie 247
کمّی سنجی ژنها با استفاده از برنامۀ salmon 248
نرمال سازی دادههای بیانی 248
نرمال سازی دروننمونهای 249
مثال محاسبات RPKM 251
مثال محاسبات TPM 252
روشهای نرمال سازی بین نمونهای 253
نرمال سازی براساس چندک بالایی 255
روش نرمال سازی TMM 256
روش نرمال سازی RLE 258
مراحل روش نرمال سازی RLE 258
انجام محاسبات روش نرمال سازی TMM 259
محاسبۀ آمارۀ M-value 261
محاسبۀ آمارۀ A 262
محاسبۀ چندک سیام یا دهک سوم M-valueها 264
انجام محاسبات روش نرمال سازی RLE 266
محاسبۀ TPM و RPKM در محیط R 270
حذف آثار ناخواستۀ دسته ای 271
اجرای بستۀ sva 273
فراخوان بستۀ sva و دادههای بیانی بهمنظور حذف آثار دسته ای 273
نمایش داده در فضای دو بعدی با استفاده از برنامۀ Rtsne 274
مراحل کار در الگوریتم t-SNE 275
اجرای برنامۀ Rtsne 279
اجرای برنامۀ ComBat_seq در بستۀ SVA 280
تجزیه بیان افتراقی ژنها 282
مدلهای آماری تجزیه داده های بیان ژنها 283
مدلسازی داده های کانت 284
ترسیم نمودار پراکنش میانگین داده ها در مقابل واریانس آنها 285
اجرای برنامه های edgeR و DESeq2 287
اجرای بستۀ edgeR 289
محاسبۀ مقادیر تعدیلشدۀ p-value 293
بررسی بیان افتراقی ژنها 296
اجرای برنامۀ DESEq2 299
تجزیه بیان افتراقی ژنها 303
ترسیم نمودار بیان افتراقی ژنها 303
تبدیل داده ها برای نمایش پراکنش آنها 307
روش تثبیت واریانس 307
روشrlog 309
روش لگاریتمی log(x+1) 309
تجزیه افتراقی بیان ژنها با استفاده از رویکرد ناپارامتریک 311
بستۀ NOISeq 311
برنامۀ NOISeq-real با استفاده از تکرار 313
برنامۀ NOISeq-si بدون تکرار 313
برنامۀ NOISeqBIO 314
اجرای بستۀ NOISeq 316
نرمالسازی دادههای بیانی 319
فیلتر دادهها 319
اجرای برنامۀ noiseq برای تجزیه دادههای بیان بدون تکرار 324
استخراج نتایج برنامۀ noiseqbio 325
استخراج و ذخیرۀ نتایج 325
فصل هشتم: شناسایی پیرایشهای متناوب و circRNAها 327
مقدمه 327
انواع پیرایش متناوب 328
اجرای برنامۀ rMATS 328
RNAهای حلقوی 334
بیوژنز circRNAها 335
خصوصیات circRNAها 337
عملکردهای بیولوژیک circRNAها 338
circRNAها در پاسخ به تنشهای زیستی و غیر زیستی در گیاهان 342
کشف و بررسی نمایه بیان circRNAها 343
تنوع circRNA 344
نمایه سراسر ژنومی circRNAها 345
ساخت کتابخانۀ ترنسکریپتوم حاوی circRNA 345
پایگاه های دادۀ circRNA 347
الگوریتم های محاسباتی برای شناسایی circRNAها 349
شناسایی نواحی پردازش برگشتی 349
شناسایی circRNAها با استفاده از برنامۀ CIRI2 353
تشخیص BSJ با استفاده از روش آماری حداکثر درستنمایی (MLE) 354
اجرای برنامۀ CIRI2 354
ماژول RO1 355
اجرای ماژول RO1 356
ماژول RO2 356
ماژول Merge 357
شناسایی circRNAها با استفاده از برنامۀ CIRCexplorer2 361
اجرای برنامۀ CIRCexplorer2 361
شناسایی پردازشهای برگشتی متناوب 368
شناسایی رویدادهای پردازش متناوب درون circRNAها 369
کمّی سنجی و بررسی بیان افتراقی circRNAها با استفاده از ابزار CIRIquant 370
اجرای برنامۀ CIRIquant 371
محاسبۀ DE و DS 374
مراحل انجام بررسی بیان افتراقی ژنها با وجود تکرارهای بیولوژیک 375
گام اول: تهیه فایلهای ورودی لازم برای بررسی بیان 375
گام دوم: تهیه فایل داده های بیان ژنهای حاصل از برنامۀ StringTie2 376
کمّیسنجی و بررسی بیان circRNAها به صورت گام به گام و دستی 379
مراحل انجام کار بهصورت گامبهگام 380
تأئید و تفسیر نتایج شناسایی و بررسی بیان افتراقی circRNAها 384
فصل نهم: شناسایی و بررسی بیان میکروRNAها 387
مقدمه 387
جایگاه ژنومی میکروRNAها و نقش آنها 388
شناسایی میکروRNA با استفاده از روشهای محاسباتی 390
توالییابی نسل جدید روشی مناسب و جامع برای شناسایی و کمّی سنجی میکروRNA 393
نامگذاری میکروRNA 394
اجرای برنامۀ miRDeep2 به منظور شناسایی میکروRNAها 395
کمّیسنجی میکروRNAهای بالغ 400
اجرای برنامۀ quantifier.pl 401
شناسایی میکروRNAهای جدید 402
فصل دهم: ترسیم شبکه های هم بیان 405
مقدمه 405
انواع شبکه های بیولوژیک 406
مراحل ساخت شبکۀ همبیان 409
پیشپردازش دادهها 409
ساخت شبکۀ هم بیان وزندار 410
روش گامبهگام 410
شناسایی ماژول 418
محاسبۀ ماتریس TOM 418
ترسیم دندروگرام براساس مقادیر عدم تشابه TOM 420
خوشه بندی و روشهای آن 420
شناسایی ماژول با تخصیص ژنها به آنها 423
تلفیق ماژول های بسیار مشابه 424
تجزیه مقادیر منفرد 425
مراحل انجام تجزیه به مؤلفه های اصلی (PCA) و محاسبۀ بردارهای ویژه و مقادیر ویژه 428
مقادیر ویژه ماتریس 431
محاسبۀ مقادیر مؤلفۀ اصلی برای ژنها 432
ارتباط بین ماژولها و صفات 434
ساخت شبکه به صورت اتوماتیک با استفاده از عملگر بلوک 434
انتخاب ژن و ماژول 434
مطالعۀ ویژگیهای توپولوژیک شبکه 435
تمرکز شبکه 440
قابلیت تصویرسازی 441
مرتبط سازی با سایر نرمافزارها 441
اجرای بستۀ WGCNA برای ترسیم شبکه های همبیان 442
تعیین رنگ برای هریک از ماژولها 452
تلفیق ماژولها 455
استخراج نتایج در قالب برنامۀ cytoscape 458
تصویرسازی نتایج با استفاده از برنامۀ WGCNA 459
شناسایی بلوک ماژولی برای شبکه های بزرگ 462
ترسیم و تجزیۀ ماژولها در برنامۀ Cytoscape 463
تصویرسازی شبکۀ ترسیم شده با استفاده از بستۀ WGCNA 464
تجزیه شبکه 466
1- روشهای محلّی 467
2- روشهای کلی 468
تعیین عملکرد ژنهای درون ماژولهای مرتبط با متابولیت ثانویه زعفران 471
شناسایی و تصویرسازی ماژولها 472
شناسایی ماژولهای اختصاصی و حفظشده 473
آمارههای حفظشدگی ماژول برای شبکه های عمومی 474
آمارههای حفظشدگی ماژول برای شبکه های همبستگی 476
آمارۀ Zsummary حفظ شدگی ماژول مرکب 478
ارزیابی معنیداری آماره های حفظ شدگی ماژول با استفاده از آزمون جایگشت 480
شناسایی ماژولهای حفظ شده با استفاده از تابع modulePreservation در بستۀ WGCNA 482
اجرای برنامۀ modulePreservation در بستۀ WGCNA 485
شناسایی ماژولهای حفظ شده با استفاده از رویکرد جایگشت مقیاس پذیر 491
آمارههای حفظشدگی ماژولها 494
داده های پراکنده 498
آزمون فرض 499
برآورد p-value بهوسیلۀ آزمون جایگشت 500
مراحل انجام کار در برنامۀ NetRep 504
اجرای برنامۀ NetRep در محیط R 506
ساخت ماتریس همبستگی داده های بیانی نمونه های گلدار 506
ساخت ماتریس همبستگی داده های بیانی نمونه های بدونگل 508
بررسی نتایج 511
محاسبۀ خصوصیات ماژول در یک شبکه 518
شناسایی هابژنهای مرتبط با گلدهی زعفران 520
اعتبارسنجی نتایج با استفاده از بررسی بیان افتراقی ژنهای هاب مرتبط با گلدهی 521
فصل یازدهم: توالی یابی و راهبردهای سرهمکردن ژنوم ها 523
مقدمه 523
توالی یابی ژنوم و پیچیدگی آن 524
کاربردهای توالی یابی ژنومها 526
توالی یابی خوانش کوتاه و مشکلات سرهمکردن ژنوم 526
فنّاوریهای توالی یابی با طول بلند 527
توالی یابی به روش SMRT 528
فنّاوری ONT 531
خوانش های طولانی پیوسته PacBio 533
خوانش های بلند و بسیار بلند ONT 535
فنّاوری توالی یابی TSLR 537
مراحل انجام فنّاوری توالی یابی TSLR 537
ویژگیهای ژنومی یوکاریوتها و توالی یابی آنها 540
برآورد اندازۀ ژنوم با استفاده از نمودار توزیع K-mer 541
اجرای برنامۀ jellyfish 542
ترسیم نمودارها در محیط R 544
محاسبۀ تعداد کل K-merها 544
طراحی بهترین نقشه به منظور توالی یابی ژنوم 550
استخراج DNA با کیفیّت 551
میزان پوشش و سایر آمارههای مرتبط با توالی یابی ژنومی 552
پوشش و مرجع آن 553
سیستم کامپیوتری لازم و چگونگی سرهمکردن خوانشهای ژنومی 557
تصحیح خطاها در قطعات سرهم شده با استفاده از خوانشهای SGS 559
برنامه های سرهمکردن توالی های ژنوم 561
برنامۀ HASLR 561
اجرای برنامۀ HASLR 562
سرهم کردن توالی های حاصل از فنّاوری نسل سوم توالییابی با استفاده از برنامۀ canu 563
گزینههای لازم برای همۀ مراحل 566
گزینه های لازم برای مرحلۀ تصحیح 567
گزینه های لازم برای مرحلۀ سرهمکردن 567
گزینه های لازم برای سرهمکردن ژنومهای پلیپلوئیدی 568
گزینه های لازم در سرهمکردن دادههای متاژنوم 568
گزینه های لازم برای دادههایی با پوشش کم 569
گزینه های لازم برای دادههایی با پوشش بالا 569
ژنوم های دارای درصد AT/GC بالا 569
داده هایی با همسانی کمتر از 80 درصد 570
بررسی کیفیّت و کمیّت ژنوم سرهم شده قبل از مستندسازی 574
ساخت ژنوم کامل با استفاده از خوانشهای حاصل از روش Hi-C 575
فازبندی هاپلوتیپها و سرهمکردن ژنوم 577
راهبردهای مبتنی بر همردیفی با ژنوم مرجع 578
فازبندی در ژنومهای دیپلوئیدی 578
فازبندی در ژنومهای پلیپلوئید 581
راهبردهای مبتنی بر سرهمکردن de novo ژنوم 583
ژنوم های دیپلوئید 584
ژنوم های پلیپلوئید 586
نواحی تکراری در ژنومها و راهبردهای سرهم کردن و فازبندی آنها 587
سرهم کردن کانتیگهای مربوط به ژنومهای پلیپلوئیدی با استفاده از برنامۀ ALLHIC 592
مراحل اجرای برنامۀ ALLHiC بهصورت گامبهگام 595
کنترل کیفیت خوانش های همردیف شده 596
سرهم کردن ژنوم براساس فازبندی هاپلوتیپها با استفاده از برنامۀ GreenHill 608
خوانشهای ورودی 611
ادغام هاپلوتیپها 612
نقشهیابی خوانشها 614
ساخت داربستهای توافقی بهوسیلۀ خوانشهای بلند 614
شناسایی یالهای اشتباه به وسیلۀ خوانشهای Hi-C 614
مرحلۀ فازبندی 617
اجرای برنامه GreenHill 619
تهیۀ نقشههای نوری (اپتیکی) بیونانو 621
الکتروفورز و خطی کردن DNA 623
سرهمکردن de novo نقشۀ ژنوم 624
سرهمکردن ژنومهای کوچک 625
سرهمکردن ژنوم اندامک ها 626
برنامۀ NOVOPlasty 626
اجرای برنامۀ NOVOPlasty 627
تهیۀ فایل تنظیمات (کانفیگ) 628
اجرای برنامۀ NOVOPlasty 630
سرهم کردن خوانشهای بلند سینتتیک حاصل از فنّاوری TSLR 634
تصحیح کروموزوم باکتری سرهمشده با استفاده از برنامۀ Pilon (genome.fasta) 638
فصل دوازدهم: شناسایی محل اتصال پروتئینها در ژنوم (ChIP-Seq) 641
مقدمه 641
مراحل اجرای روش ChIP-Seq 642
همردیفی با ژنوم 644
مشخص کردن نقاط غنی 645
تجزیهوتحلیلهای پاییندست 646
اجرای برنامۀ MACS 648
اجرای برنامۀ MACS برای شناسایی مکان اتصال عوامل رونویسی 653
اجرای برنامۀ IDR از بسته نرم افزاری phantompeakqualtools برای بررسی تکرارهای مختلف 657
اجرای برنامۀ PePr برای دادههای تکراردار 659
ارتباط بین پیکها و ژنها 662
شناسایی نزدیکترین ژنها به پیکها در ژنوم با استفاده از برنامۀ bedtools closest 663
اجرای برنامۀ bedtools groupby 665
نمایش بهتر فایل BAM با استفاده از تبدیل آن به قالب bigwig 666
روش مستندسازی پیکها با اجرای برنامۀ HOMMER 668
مستندسازی پیشرفته 675
ترسیم لوگوی موتیفها برای پیکهای شناساییشده 676
فصل سیزدهم: اپیژنومیک (متیل سیکونسینگ) 679
مقدمه 679
متیلاسیون DNA 680
جزایر CpG در ژنوم موجودات 681
نقش متیلاسیون DNA در سرکوب رونویسی ژنها 681
روش توالییابی متیل برای شناسایی تغییرات اپیژنتیکی از نوع متیلاسیون 683
همردیفی و پردازش اطلاعات 685
اجرای برنامۀ Bismark 686
مراحل اجرای برنامۀ bismark 687
خلاصه گزارش نتایج برنامۀ Bismark 691
مرحلۀ نهایی اجرای برنامۀ Bismark 692
گزارش پوشش نوکلئوتیدی بهوسیلۀ برنامۀ Bismark 693
فیلتر کردن خوانش های تیمارنشده با بیسولفیت 694
فصل چهاردهم: سینتنی، مبانی و ابزارها 697
مقدمه 697
سینتنی و تکامل 698
واژگان 698
ژن های همولوگ 700
ژن های اورتولوگ 700
ژن های پارالوگ 700
روشها و ابزارهای تشخیص سینتنی 702
کاربردهای سینتنی 702
انواع سینتنی 703
اجرای برنامۀ MCScanX 704
شیوۀ عمل الگوریتم MCScanX 704
شمارش تعداد ژن ها در هر یک میلیون جفتباز در فایل 10oryza.bed 711
نمایش جایگاه کروموزومی ژنهای مطالعهشده 713
اجرای برنامۀ DensityMap 714
فصل پانزدهم: فراخوانی SNPها 721
مقدمه 721
توالییابی ژنوم 721
مراحل انجام GBS 724
مراحل عملی انجام GWAS 726
فراخوانی SNPها 726
اجرای بستۀ stacks 727
اجرای پایپ لاینها 734
برنامۀ ipyrad 735
اجرای برنامۀ ipyrad 738
فراخوانی SNPها با استفاده از برنامۀ GATK 741
کیفیّت نقشه یابی 742
واریانتها در خوانشهای تکراری 743
مراحل شناسایی SNPها 744
فیلتر SNPها 753
فیلتر براساس داده های گمشده 758
برآورد ژنوتیپ دادههای گمشده 758
فصل شانزدهم: پویش گستردۀ ارتباطات ژنومی (GWAS) 759
مقدمه 759
انتخاب به کمک نشانگر (MAS) 760
آشنایی با مفهوم عدم تعادل لینکاژی 762
عوامل مؤثر بر LD 765
نقشهیابی ارتباطی 767
مدل های آماری نقشه یابی ارتباطی 767
مدل خطی 767
مدل مخلوط چندلوکوسی 768
ساختار جمعیت 768
روابط خویشاوندی 773
نقشه یابی ارتباطی 774
مقایسه کلی مدلها 774
محاسبۀ ساختار ژنتیکی جمعیتها 775
برنامۀ Structure 776
تهیه فایل دادهها برای نشانگرهای SNPs 776
اجرای برنامۀ Structure در محیط ویندوز 777
اجرای برنامۀ structure در محیط پایتون 785
نتایج 787
تجزیه ساختار جمعیت با استفاده از بستۀ LEA 790
مراحل انجام کار 790
تجزیۀ GWAS 793
دادههای ورودی 793
تهیه داده های فنوتیپ 794
تهیه داده های ژنوتیپی 794
قالب عددی 795
تهیه قالب خویشاوندی 796
تهیه قالب ماتریس متغیرهای کمکی 797
اجرای برنامۀ GAPIT به منظور انجام GWAS 798
اجرای بستۀ rMVP برای تجزیه GWAS 800
ارائه نتایج GWAS 802
نمودارQQ 802
نمودار منهتن 803
رویکرد GWAS مبتنی بر k-mer 809
مبانی GWAS مبتنی بر k-mer 811
انواع k-merها و شمارش فراوانی آنها 813
روشهای استفادهشده در GWAS مبتنی بر k-mer 815
اجرای برنامۀ KmerGWAS 823
ساخت ماتریس خویشاوندی 830
انجام محاسبات با یک مثال عملی 836
رگرسیون جزیی: تعیین اثر هر متغیر 851
اجرای برنامۀ kmers_gwas.py 856
تجزیه بیشتر k-merهای مهم 858
استخراج خوانشهای حامل k-merهای مهم 861
تجزیه GWAS با استفاده از برنامۀ rMVP براساس جدول k-merها 864
محاسبۀ ساختار جمعیت 866
فصل هفدهم: تجزیه تفرق توده (BSA) 871
مقدمه 871
تجزیه تفرق توده (BSA) 872
اجرای بستۀ QTL-Seq 873
مستندسازی واریانتهای ژنتیکی 878
اجرای برنامۀ SnpEff 878
انتخاب ژنهای خاص برای آنوتیشن 882
فصل هیجدهم: متاژنومیکس 885
مقدمه 885
متاژنومیکس عملکردی 886
متاژنومیکس مبتنی بر توالییابی 889
شناسایی ژنهای مفید با استفاده از متاژنومیک 891
ارزیابی متاژنومی دریای سارگاسو 893
اکولوژی و متاژنومیک 894
شاتگان متاژنومیکس 895
کنترل کیفیّت 896
سرهم کردن خوانشها 896
سرهم کردن خوانشهای خام با استفاده از برنامۀ metaSPAdes 897
سرهم کردن خوانشهای خام بهوسیلۀ برنامۀ megahit 899
به کارگیری ابزار خودکار MetaPlatanus در مطالعات متاژنوم 900
اجرای برنامۀ MetaPlatanus 902
کنترل کیفیت نتایج سرهم شده 903
استفاده از ابزار متاکواست 905
تفکیک متاژنوم به اجزای تشکیل دهنده 906
تعیین ارگانیزم های موجود در میکروبیوم 908
پروفایلینگ تاکسونومی با متافلان 908
تعیین ژنها و عملکرد آنها در متاژنوم 909
استفاده از سرور ام جی رست 910
بررسی تنوع جمعیت در دست مطالعه 912
فصل نوزدهم: راهبردهای تلفیق دادههای اُمیک و تجزیۀ eQTLs 917
مقدمه 917
مروری بر استراتژیهای تلفیق و تجزیهوتحلیل داده های omics 918
متاآنالیز 920
تجزیهوتحلیل چندمرحله ای 920
تحلیل متابعدی 923
ملزومات تلفیق و تجزیهوتحلیل داده های omics 926
تجزیهوتحلیل eQTL 927
مراحل تجزیۀ eQTL 929
مبانی آماری شناسایی eQTLs به وسیلۀ بستۀ Matrix eQTL 929
رگرسیون خطی ساده 930
مدل با متغیرهای کمکی 934
نحوه برخورد با چندخطی 936
مدل ANOVA 937
هتروژنی خطاها یا ناهمگنی واریانس خطاهای معادلۀ رگرسیون 938
نمودارهای Q-Q و هیستوگرام تمام مقادیر p 939
نرخ کشف خطا (FDR) 939
اجرای برنامۀ MatrixEQTL در محیط R 940
فراخوانی برنامۀ MatrixEQTL 940
فراخوانی و تنظیم قالب داده ها برای بستۀ MatrixEQTL 942
تطبیق مدل های eQTL با MatrixEQTL 943
تجزیه سیس و ترانس eQTL 944
مشاهدۀ نتایج 945
فصل بیستم: هوش مصنوعی: یادگیری ماشین در ژنومیک و ترانسکریپتومیک 949
مقدمه 949
مقدمه ای بر روشهای یادگیری ماشین در علم ژنتیک 950
کاربرد روشهای یادگیری ماشین در حوزههای مختف زیست شناسی مولکولی 953
انتخاب ژن 954
مراحل انجام انتخاب ویژگی 957
روش انتخاب رو به جلو 957
روش انتخاب رو به عقب 958
مقایسه دو روش انتخاب رو به جلو و رو به عقب 959
انتخاب دومسیره (انتخاب گامبهگام) 960
راهبردهای جستوجو 961
رویکردهای انتخاب ویژگی 962
الف) رویکرد انتخاب ویژگی Filter 962
ب) رویکرد انتخاب ویژگی Wrapper 963
ج) رویکرد انتخاب ویژگی Embedded 965
د) رویکرد انتخاب ویژگی ترکیبی 966
ه) رویکرد انتخاب ویژگی گروهی 966
روش Bagging 968
روشPasting 968
روش Boosting 968
تفاوتهای کلیدی بین روشهای ترکیبی و گروهی 969
معیار توقف 969
ارزیابی نتایج 970
الف) ماتریس درهم ریختگی 973
ب) اعتبارسنجی متقابل (w) 974
ج) ویژگی های بهینه سازی گیرنده (ROC) 975
برازش آماری 977
راهکارهای مقابله با بیش برازش 979
دلایل کمبرازشی در مدلها 981
راههای مقابله با کمبرازشی 981
برازش خوب در یادگیری ماشین چیست؟ 981
تشکیل مجموعۀ آموزش و آزمون 982
مسئله تعداد ویژگیها و تعداد نمونهها 984
ملاحظات عملی درباره مطالعات ترانسکریپتوم و ژنومیک 985
تبیین مسئلۀ تعداد نمونه در مطالعات ژنتیکی 986
راهکارهای کاهش اثر تعداد نمونههای کم 988
بهکارگیری توأم الگوریتمهای طبقه بندی کننده و انتخاب ویژگی 989
انتخاب ژن تحت نظارت 991
مزیتها 992
انتخاب ژن بدون نظارت 996
انتخاب ژن نیمه نظارت شده 997
الگوریتمهای رویکرد یادگیری ماشین تحت نظارت 998
رگرسیون لجستیک 1000
رگرسیون لاسو 1002
مزایای رگرسیون لاسو 1004
واژهشناسی 1006
ساخت درخت 1006
تقسیم در دادههای طبقهبندی 1007
بهرۀ اطلاعات 1008
فرآیند تقسیم در مدلهای مبتنی بر رگرسیون 1009
تقسیم ویژگیهای طبقهبندی 1011
تقسیم ویژگیهای عددی 1012
ساخت درخت تصمیم برای مدلهای رگرسیون 1015
الگوریتم جنگل تصادفی 1017
الگوریتم XGBoost 1023
شرایط استفاده مؤثر از الگوریتم XGBoost 1023
تقویت گرادیان برای متغیر هدف پیوسته (رگرسیونی) 1024
تقویت گرادیان برای متغیر هدف طبقهای 1029
الگوریتم AdaBoost 1032
اجرای الگوریتم AdaBoost برای دادههای طبقهای 1033
اجرای الگوریتم AdaBoost برای دادههای پیوسته (مدل رگرسیون) 1039
ساخت مجموعه دادۀ اصلاحشده 1042
ماشین بردار پشتیبان 1048
نحوۀ عملکرد SVM 1049
گاما پارامتر SVM gamma)) 1051
پارامتر (regularization) C 1053
انواع هستههای SVM 1055
هسته SVM چندجملهای 1055
هسته تابع پایه شعاعی 1055
هستۀ تابع سیگموئیدی 1057
مزایا، معایب و شرایط استفاده از الگوریتم SVM 1057
شرایط استفادۀ مؤثر از SVM 1058
نزدیکترین همسایه (KNN) 1059
مقایسه الگوریتمها 1060
روشهای یادگیری ماشین تحت نظارت 1063
اجرای الگوریتم SVM-RFE در محیط R برای مجموعه دادۀ SNP با متغیر هدف پیوسته 1063
اجرای الگوریتم SVM-RFE در محیط R برای مجموعه دادۀ ترانسکریپتوم با متغیر هدف طبقهای 1069
ساخت ماتریس درهمریختگی 1071
محاسبۀ AUC برای مدل بالا 1073
اجرای الگوریتم XGBoost 1074
اجرای رگرسیون لاسو 1077
معیاره های مختلف ارزیابی نتایج برای روش رگرسیونی در لاسو 1081
ارزیابی مدلها روی دادههای آزمون برای مدل دوجملهای 1085
ارزیابی مدلها روی دادههای آزمون برای مدل پوآسن 1087
اندازهگیری کارآیی مدل ایجادشده 1087
اعتبارسنجی متقابل 1087
ساخت ماتریس درهمریختگی و نمودار ROC برای دادههای طبقهبندی 1088
منحنیهای ROC برای دادههای متغیر هدف دوجملهای 1088
روش یادگیری ماشین بدون نظارت 1091
اجرای برنامۀ Omada 1091
انتخاب مناسبترین رویکرد خوشهبندی براساس مجموعه داده 1095
استخراج نتایج 1096
انتخاب مناسبترین ویژگیها 1096
برآورد بهینهترین تعداد خوشهها 1097
اجرای خوشهبندی بهینه 1099
واژهنامه 1101
زبانهای برنامهنویسی 1101
ابزارهای توالییابی و شیمی آن 1103
تجزیهوتحلیل بیوانفورماتیک 1110
انواع فایل 1114
دستورات کاربردی قابل اجرا در ترمینال لینوکس 1118
مراحل نصب برنامه های تجزیۀ داده های NGS از مخزن conda 1124
مراحل نصب برنامه های تجزیۀ داده های NGS از مخازن Bioconductor و CRAN 1125
منابع 1127
نمایه 1135
دسته بندی موضوعی | موضوع فرعی |
كشاورزي و منابع طبیعی |
کشاورزی
|